〔Day25〕文字預處理，過濾多餘的詞-Text

2022 iThome 鐵人賽

DAY 25

AI & Data

一同來挖掘 0 程式的Orange!系列第 25 篇

14th鐵人賽 orange 數據分析機器學習文字處理

Sin

團隊花栗鼠與她的朋友們

2022-10-10 23:03:30

1139 瀏覽

分享至

在前幾次，我們有用表格與圖像的數據來進行分析，那麼今天要來點不一樣的，換成如標題所說的「文本」做主題啦~~
預備備~開始!

安裝文字插件

打開Orange上的工作列表，點選「Options」中最下面的「Add-on(插件)」，這次我們要來下載「Text」這個插件，勾選後按下OK鍵並重新啟動，即可開始使用它囉。

建檔&瀏覽

開啟後，應該會看到右方列表多出一個「Text Mining」的插件出現。
接著，我們就可以將裡面的「Corpus(文集)」組件選出，並點選這次我們要使用「grimm-tales-selected」的文件，裡面富含有44個範例供我們操作。

想看文本內容者，可連接「Corpus Viewer」看看裡面內容，或也可以用關鍵字來查詢想要看到的文件。

文字預處理

再來，我們將連接「Word Cloud」組件，幫我們於雲端計算出各個單字或標點符號的出現頻率有多少，若是顯現越多次者則越大。

但我們其實不需要用到無意義的詞或標點符號，所以我們就要用「Preprocess Text(文字預處理)」來代處理它們。
將一個個單字標誌化外，還將標點符號過濾掉。

大家可在連上「Word Cloud」查看，是否有成功。
而我們從以下右方出現較大的文字來看，這個文本似乎在敘述一個與國王有相關連的故事。

不過我們依然可以發現到，還是有許多不需要的字詞在當中佔了很大的版面，這時我們可以依照你想刪掉的單字，打在記事本中，並將其命名好另存新檔。

把剛剛的文件輸入至「Preprocess Text」中Filtering(過濾)的Stopwords(停止單字，也就是禁止輸入的單字出現)。
當我們再次打開「Word Cloud」發現他們都不見了，那麼我們就大功告成啦~

今天就先帶著大家到這邊囉，明日也會是文本實作，若是對這個主題喜歡的你，可以繼續看下去呦~

參考文件:
Orange

〔Day24〕零程式的圖像分析(二)-Classification

〔Day26〕看看Orange歸類文本之效果

系列文

一同來挖掘 0 程式的Orange! 共 30 篇

RSS系列文訂閱系列文

9 人訂閱

完整目錄

直播研討會

{{ item.channelVendor }} {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22195 篇

完賽人數

600 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙

一同來挖掘 0 程式的Orange!系列 第 25 篇